宗成庆:机器翻译的梦想与现实
本文转载自中国科学院自动化研究所
◆ CASIA | 解锁更多智能之美 ◆
【今日紫冬】近年来,机器翻译等语言智能技术迅猛发展,语言智能技术落地、机器翻译替代人工、外语教育存废、外语教学改革等,成为社会热议话题。外语教育如何将语言智能的挑战作为转型的契机更好发展?怎样理性认识语言智能技术的发展未来?聚焦"语言智能与外语教育协同发展",自动化所宗成庆研究员这样说......
如何突破语言障碍,让机器完成不同语言之间的自动翻译,最终实现任意时间、任意地点、任意语言之间的无障碍自由通信,是人类长期以来的梦想。
近年来,随着计算机性能的提高,云计算、大数据和机器学习等相关技术迅速发展,人工智能再度崛起,机器翻译重新成为人们关注的焦点。一时间,机器翻译系统如雨后春笋般涌现,各种报道随之呈井喷式爆发,"机器翻译将取代人类"的说法也时有耳闻。然而,机器翻译的真实水平如何,梦想与现实的距离到底有多远?
图片来自视觉中国
从低迷到兴盛
机器翻译概念于1947年被提出,随后成为人工智能研究的核心问题。在70多年的发展历程中,机器翻译研究经历了几个不同的历史阶段:
从概念提出到1954年美国乔治敦大学(Georgetown University)在IBM公司的帮助下实现第一个机器翻译演示系统,可以认为是机器翻译的初创时期。
1966年,美国国家科学院语言自动处理咨询委员会(Automatic Language Processing Advisory Committee,ALPAC)发布题为《语言与机器》的报告,宣称"目前给机器翻译研究以大力支持没有太多的理由","机器翻译遇到了难以克服的语义障碍",从而导致机器翻译研究在世界范围内走向低迷。
20世纪70年代中后期至80年代前期,部分机器翻译系统在特定领域得到初步应用(如加拿大蒙特利尔大学研制的天气预报翻译系统TAUM-METEO)。欧洲共同体实施的欧洲翻译体系(European Translation System,EUROTRA)计划和日本对第五代计算机的研究都对机器翻译研究给予了支持,机器翻译研究开始复苏。
20世纪80年代末期,IBM公司实现了基于噪声信道模型的统计机器翻译系统,并在美国国防部高级研究计划署(ARPA)组织的评测中取得了较好成绩,推动了机器翻译技术的快速发展。尤其进入2000年之后,GIZA++、Pharaoh、Moses等一批开源工具相继发布,2006年谷歌翻译正式上线运行,2011年百度翻译上线,各大公司陆续推出了自己的翻译系统,整个机器翻译领域呈现出蓬勃发展、遍地开花的大好局面。
2013年基于神经网络模型的机器翻译(简称"神经机器翻译")方法被提出,机器译文的质量得到大幅提升,并且很多开源工具被相继公布,机器翻译技术研究和系统推广应用均出现前所未有的盛况。统计机器翻译和神经机器翻译的基本原理都是基于已有的大规模句子级双语对照语料进行模型训练,建立最优的翻译模型,最终实现从一种语言到另一种语言的翻译。通常情况下,用于训练模型的语料规模越大,模型性能表现就越好。
被夸大的技术
机器翻译技术的进步和系统性能的提升在为人们日常生活和工作带来更多便利的同时,也为该技术的产业化发展带来了更多商机。这种空前局面不仅让人们看到了梦想成真的希望,也点燃了部分人心中按捺不住的欲望。从传统媒体到新媒体,对机器翻译技术夸大宣传的声音不绝于耳,但一个不可否认的事实却是,目前的机器翻译技术尚不成熟,无论是文本翻译,还是口语翻译,机器翻译的质量远没有达到令人满意的水平。
当前所有的商用文本机器翻译系统普遍存在的问题:
一是错翻、漏翻和重复翻译比比皆是,尤其对成语、缩略语、专业术语和人名、地名、组织机构名称等的翻译更是招数无几。
二是难以实现篇章范围内的指代消解,常常张冠李戴,例如,前面说的是美国与伊朗之间的事情,后面翻译"美伊两国"时却译成了美国与伊拉克。
三是缺乏足够的在线优化能力,无法从译员修改译文的过程中自动学习和更新翻译知识,即使译员对系统给出的某个错误译文反复修改,系统依然照错不误。
四是对口语而言,说话人的语气、重音、语调,甚至肢体语言无法得到充分利用,尤其当说话人的口音较重、用词过于生僻、话语主题超出先验知识范围时,译文的质量无法保障。
高端翻译不可取代
我们并不否认机器翻译技术的进步,正如前文所述,机器译文的质量已有显著改善。在日常口语对话中,对于资源较为充分的语言(如英汉、日汉等),在说话场景不是非常复杂、口音基本标准、语速基本正常、使用词汇和句型不是非常生僻的情况下,口语翻译的性能基本可满足正常交流的需要。专业领域的文本机器翻译在训练语料较为充分时,译文准确率可达到80%以上。而对于资源匮乏的语言之间的翻译(如波斯语或达利语等与汉语之间的翻译),译文质量还十分有限。
毋庸置疑,机器翻译可能替代那些任务重复性较大、翻译难度较低的低端翻译人员,如天气预报查询、旅馆预订服务、交通信息咨询等翻译,但不可能取代高端翻译(如重要文献、伟人著作、文学名著等翻译)人员,更不可能消除翻译职业。"信、达、雅"是翻译的终极目标,我们可以预期,未来的机器翻译系统能够辅助高端翻译人员提高翻译效率,但要实现无须人工干预的高质量全自动翻译恐怕还是一个愿望。
不得不说的是,任何负责任的科学家和企业界都有责任和义务把技术或产品的真实水平和性能告知公众,而不是一味地宣扬,甚至为了利益而故弄玄虚。实事求是是一种态度,也是一种品格。
- END -
更多精彩内容,欢迎关注
中科院自动化所官方网站:
http://www.ia.ac.cn
欢迎后台留言、推荐您感兴趣的话题、内容或资讯,小编恭候您的意见和建议!如需转载或投稿,请后台私信。
来源:光明日报
作者:宗成庆(中国科学院自动化研究所研究员)
排版:亚岱尔
编辑:鲁宁、欧梨成